Harness Engineering — Overview
Harness Engineering 关注模型之外的工程层:工具、权限、记忆、环境、验证、调度、恢复和可观察性。本页是 MOC,用来组织问题和概念,不再承载每日生态更新正文。
Core Questions
- 什么能力属于模型,什么能力属于 harness,什么能力属于可积累的 context substrate?
- Agent 长时运行、并行协作、工具调用和自我验证分别需要什么工程边界?
- 什么时候应该增加 harness,什么时候应该删除过时的 harness 假设?
- 个人知识库、skills、Codex automations、Obsidian wiki 和 OpenClaw 如何组成同一套 harness?
- 当 agent 越来越 autonomous,哪些安全和观测机制必须从 prompt 下沉到系统层?
Key Concepts
- Agent harness:What is an Agent Harness?、Harness is Everything、Lightweight vs Orchestration Harness 定义模型之外的执行壳层。Harness 可进一步拆分为 Harness Workflow(方法论闭环:研究-需求-设计-开发-验证)与 Harness Infra(沙盒、skills、权限、可观测性等基础设施),前者关注流程设计,后者关注流程落地的工程支撑(9hills, 2026-05-11)。Tejas Kumar 的六组件定义与"2026 是 Harness 之年":Tejas 将 Harness 定义为"模型周围的一切,为它提供现实接地的东西",包含工具注册表、模型选择、上下文管理原语、护栏、Agent 循环、验证步骤。他用 GPT-4.5 Turbo(2023 年旧模型)现场演示:完全不改 prompt,仅通过构建 Harness 就完成 Hacker News 点赞任务——从"幻觉失败"到"可靠成功"。他预测 2025 是 Agent 之年,2026 是 Harness 之年,2027 是动态即时生成 Harness 之年(2026-05-20)。DeepSeek 正式将 Harness Engineering 产品化:公开招聘 Agent Harness 产品经理,明确「Model + Harness = Agent」的团队使命,要求覆盖 Agent Loop、Tool Use、Skills、MCP、Memory、Subagent、Multi-Agent 等完整技术栈,并要求候选人深度使用 Claude Code、Codex、Cursor、OpenClaw 等产品。这标志着 Harness Engineering 从社区概念和社区讨论演变为头部模型公司的正式产品职能(dotey, 2026-05-16)。Harness 会编码对模型限制的假设,但这些假设会随着模型进化而过时——Anthropic Managed Agents 架构明确将这一风险纳入设计:为缓解上下文焦虑而添加的重置机制在新模型上可能成为死代码,因此 harness 需要像 OS 虚拟化一样保持上层抽象稳定、下层实现自由变更(2026-05-11)。Anthropic 研究 PM 的模型+harness 耦合视角:Alex Albert 指出模型和 harness 并非独立——同一个模型在 Claude、Cowork、Claude Code 等不同 surface 上会给出不同响应,因为每个 surface 包裹了不同的 prompt 和 tool setup;研究 PM 必须同时考虑模型能力和 harness 设计,而非单独优化其中之一(2026-05-17)。Albert 进一步分享 Anthropic 构建 Claude 的五个核心方法论:(1) 模型与 harness 耦合设计——同一模型在不同产品表面给出不同响应;(2) 梦境记忆处理——agent 不运行时自动回顾记忆,发现矛盾并修剪,灵感来自人类睡眠处理记忆的过程;(3) 真实用户问题驱动的 evals——用 Claude 将用户反馈聚类成主题,再生成合成测试用例,几十条精心编写的测试案例就能产出有效 eval;(4) consciousness 研究——Anthropic 有全职研究员思考 Claude 的 consciousness 问题,没有官方立场,但随着 agent 承担更多自主工作,这个问题被认真对待;(5) 写作文化作为上下文来源——每个书面文字都成为 Claude 后续可拉取的上下文,团队写作文化帮助构建 agent 可用的持久上下文(petergyang, 2026-05-18)。长任务 Agent 的三层控制架构:teach_fireworks 提出长任务 Agent 的稳定性不取决于模型智商,而取决于工程架构中的三层控制面:状态层(任务目标、进度、决策记录、文件变更、验证结果写入外部存储,不能全押在 context window 上)、规划层(任务切分成可独立验证的小阶段,设置运行预算——max turns、token budget、时间上限、失败重试次数)、验证层(独立于执行层:机器验证、环境验证、独立评价——Planner / Generator / Evaluator 三角色分离)。生产级 Agent 的五层架构在此基础上增加执行层(工具调用有记录)和监督层(权限和升级路径)(2026-05-25)。Microsoft Webwright:Microsoft 发布的 Webwright 是 Playwright 的 agent 专用更新,将浏览器自动化从脚本执行升级为可复用的 agent 工作流。每次浏览器会话都可以被保存和复用为工作流,大幅降低 agent 重复执行相同任务的成本。仓库包含 @NousResearch Hermes Agent skill,展示了与现有 agent 生态的集成能力(2026-05-25)。Microsoft SkillOpt:Microsoft Research 提出 SkillOpt,将自然语言 skill 视为可训练的外部状态,通过优化器模型在验证门控下编辑 skill 文件。在 GPT-5.5 上相比无 skill 提升 23.5 分(直接对话)、24.8 分(Codex)、19.1 分(Claude Code);在 6 个基准测试、7 个模型、52 个设置中全部达到最佳或并列最佳。学习到的 skill 可跨模型和 harness 迁移,零额外推理成本(2026-05-25)。MCP 2026-07-28 发布候选:MCP 协议迎来实质性简化——变为无状态(no handshake, no session ID, any request can hit any server instance),引入 MCP Apps 和 Tasks 作为 first-class extensions,并加固 auth 和 deprecation policy。对 infra 团队而言,无状态化意味着更容易扩展、更简单的负载均衡、更少的 sticky-session 顾虑(AINews, 2026-05-23)。Gemini Managed Agents + Interactions API:Google 推出托管 Linux 沙盒,为 agent 提供安全的代码执行环境,配备内存和持久化存储。这与 CoreWeave Sandboxes、Cloudsail 等共同构成"agent 沙盒即基础设施"的新品类(AINews, 2026-05-23)。生产级 Harness 的 15 项真实职责:mfpiccolo 在「How to Build Your Own Agent Harness」中系统梳理了生产级 Harness 必须承担的 15 项真实职责,涵盖单次 turn 跑通、策略、审批、预算、trace 等生产级要素。核心洞察是 Harness 不是选一个框架就能搞定,每项职责都应做成可安装、可版本化、可换语言的 worker。详见 Agent Harness Worker Model(shao__meng, 2026-06-01)。Worker Model Harness: Rohit Ghumare 提出当前主流 Agent 框架(LangChain、LangGraph、OpenAI Agents SDK)把状态机、路由、凭证管理、策略引擎等十五个关注点打包成单体,导致长期运行的 Agent 团队最终都得重写 Harness。Worker 模型让每个层成为共享总线上的独立 worker,可插拔替换——不喜欢模型目录就写一个直接调用 live API 的 worker,想把审批路由到 Slack 就加一个调用 approval::resolve 的 worker。框架时代替你做了选择并锁定你;Worker 模型把选择权留在你手中(ghumare64, 2026-05-29)。Agent Psychosis Lesson: Mitchell Hashimoto 的实验显示,Agent 可以在 4 小时内将渲染器帧时间从 88ms 优化到 1.5ms,但懂系统的人手写版本能做到 0.020ms(75 倍提升)。盲目信任 Agent 输出会导致接受平庸结果,系统理解仍是不可替代的。核心启示:AI 是强大工具,但不要盲目接受结果;要思考、分析、学习,避免成为"平庸之泉"的过度饮用者(mitchellh, 2026-05-29)。
- Cloud agent infrastructure lessons:Cursor 的 Josh Ma 分享了构建云端 agent 的五大核心教训,代表从本地 agent 向云端生产 agent 演进的真实工程经验(Ben's Bites, 2026-06-04):
- 开发环境就是产品:本地 agent 免费继承开发环境,云端 agent 必须从零重建。环境不完善的唯一迹象往往是输出质量的微妙下降,而非崩溃。Cursor 最终构建了 "enterprise IT for agents":密钥脱敏、网络策略、凭证管理。
- 长时间运行需要持久执行:早期工作窃取架构可靠性仅约 90%;迁移到 Temporal 后,可承受推理可靠性波动、pod 休眠/恢复、跨天甚至跨周的运行。Temporal 每天处理超过 5000 万个动作,超过 700 万个独特工作流。内部超过 40% 的 PR 来自云端 agent。
- 解耦 agent、机器和对话状态:agent 循环存在于 Temporal 而非 VM 本身,可独立管理 pod 生命周期。分离存储和流层,构建高效的仅追加存储机制,将对话更新流式传输到客户端。
- 知道何时放手:早期不信任 agent,harness 会在每个任务后双重检查、强制提交和推送。随着模型变聪明,将逻辑从 harness 移到 agent 控制的工具。一年前多仓库设置需要硬编码 harness 行为,现在只需给 agent 仓库布局、暴露分支和 PR 工具,让它决定如何工作。
- 自修复 agent 环境:未来方向是让 agent 能报告密钥缺失、网络访问被阻、环境阻碍进展,并能以自修复方式行动。
- Model-to-agent platform shift:Model Labs Becoming Agent Labs 是 harness 视角下的新主线:模型实验室开始把 coding agent、sandbox、MCP、interactions API、workspace CLI 和部署服务一起交付。对个人和团队来说,比较对象不再是“哪个模型更强”,而是哪个系统提供更好的权限、状态、恢复、工具接口和可审查产物。
- 从"框架"到"执行层"的范式转移:多篇帖子汇聚到同一观点——Agent 的重心正从代码框架转向 harness 和执行环境(AINews, 2026-06-04)。@gakonst 认为未来的 IDE 栈不再是代码编辑器,而是将文件替换为线程,并将 plan/design/build/deploy/monitor 循环捆绑在一起——协作/同步引擎成为关键未解问题。Jerry Liu 的观点:"框架时代"正在结束,抽象层正向上移动到技能、工具和上下文质量,而非 Python 包装器。这验证了 harness engineering 从社区概念向产业共识的演进。
- Systems engineering for agents:Agentic Software Is Systems Engineering、9-Layer Architecture、Big Systems Advice 把 agentic software 拉回生产系统问题。生产级 Agent Harness 由 12 个核心组件构成:编排循环、工具、记忆、上下文管理、提示词构建、输出解析、状态管理、错误处理、护栏与安全、沙箱执行、可观测性、生命周期管理。LangChain 仅通过改变 Harness 架构(模型不变)就让 TerminalBench 2.0 排名从 30+ 飙升至第 5,证明 harness 设计独立于模型能力的巨大杠杆(dotey, 2026-05-11)。12-Factor Agents 方法论将 Agent 工程化原则浓缩为 12 条核心设计规则,覆盖上下文管理、工具调用、状态建模、控制流设计、错误收敛、模块化架构等关键环节,GitHub 获 11k+ Star,框架无关,来自与上百位技术创始人的深度交流(wsl8297, 2026-05-18)。Agentic 系统的五个基础设置(sudoingX)提出基础设施比模型和框架更重要:Tailscale(跨设备私有 mesh 网络)、Termius(统一 SSH 客户端)、tmux(持久会话)、私有 git repo(跨 agent 的记忆层)、day-one 脚本化(做超过两次的事就写成脚本)。这五层构成了 agent 长期运行的最小可行基础设施(2026-05-18)。Agentic 项目部署前的五个安全与工程基础(DeRonin_)进一步将生产 harness 浓缩为五层:PRIVACY(direnv + secrets manager,确保 credentials 永不以明文存在于磁盘上,key 作用域限制到项目级别)、TOKENS(litellm/portkey 作为模型代理,统一 AI provider 入口,提供响应缓存减少 30-60% 成本、自动 fallback、预算上限和 PII 脱敏)、CONTEXT(uv + git commit on every passing eval,用 uv.lock 锁定依赖、用 commit 记录 prompt+代码+模型版本和通过率,实现一键回滚)、VISIBILITY(mitmproxy 监控每个 LLM 调用,查看静默重试、完整 prompt、token 成本和潜在的 prompt injection)、EVALS(inspect-ai 框架,提供跨模型对比、风险行为测试、可重复评分和可复现的 eval seeds)。这五层比模型选择更能决定长期安全和可靠性(2026-05-18)。LangChain Interrupt 大会发布完整 agent 生命周期基础设施矩阵:LangSmith Engine(可观测性引擎)、SmithDB(基于 Apache DataFusion 和 Vortex 的嵌套长时 trace 数据库,关键工作负载访问速度提升 12-15 倍)、Sandboxes(沙箱环境)、Managed Deep Agents(托管深度 agent)、LLM Gateway(LLM 网关)、Context Hub(上下文中心)、Deep Agents 0.6;开源侧新增流式类型投影、检查点存储、代码解释器、harness 配置文件和模型特定调优。所有改进指向同一目标:让 agent 事件流比纯 token 流更丰富(2026-05-14)。Artificial Analysis 发布 Coding Agent Index,首次系统性地比较模型+harness组合在真实编码任务上的表现:Opus 4.7 + Cursor CLI 排名第一,GPT-5.5 + Codex 紧随其后;不同组合在 cost per task(>30x 差异)、token usage(>3x)、cache hit rates(80-96%)和 time per task(>7x)上存在巨大差异(2026-05-12)。OpenClaw 常驻 agent 模式将生产级 harness 推向极致:约 100 个 Codex 实例持续运行,覆盖 PR 审查、issue 管理、安全扫描、性能测试、会议记录等全链路自动化;@clawsweeper 自动清理 6 个月前的 issue 并用精确引用关闭;会议监听 agent 在讨论新功能时主动创建 PR。核心假设是未来 token 成本趋近于零,团队因自动化而极度精简,代表了 token 零成本假设下的组织新形态(steipete, 2026-05-16)。Agent-first UX 趋同:GitHub Copilot App 技术预览发布,定位为"agent-first"桌面环境,支持并行工作流、repo/PR 全生命周期管理、模型灵活性;VS Code Agents 窗口新增多 agent、多项目工作流支持,并通过 vscode.dev/agents 支持浏览器/移动端访问。Conductor、GitHub Copilot App、VS Code Agents 正在 converging 到同一种"编排面板"形态,差异化将来自执行质量、模型灵活性和生态整合深度(AINews, 2026-05-15)。LangChain 基础设施矩阵扩展:LangChain 发布 SmithDB(专为 agent trace 数据设计的数据库,针对 agent trace 工作负载优化存储/查询路径)、LangSmith Engine(将可观测性从被动检查转变为主动改进循环,消费 trace、聚类失败、识别代码问题并提出修复/evals)、LangChain Labs(聚焦 agent 持续学习,核心论点是生产环境 trace 应成为训练信号和长期能力改进来源)。这标志着 LangChain 从"框架公司"向"agent 基础设施栈"转型(AINews, 2026-05-15)。CoreWeave Sandboxes:W&B 与 CoreWeave 联合推出用于 RL、工具使用和 eval 工作负载的隔离执行沙箱,明确测试了
rm -rf /等破坏性命令的大规模隔离能力。agent 的执行安全从"理论需求"变成"可采购的基础设施",这是 agent 进入生产环境的前提条件(AINews, 2026-05-15)。 - Agent control plane as product category:Agent 控制平面正在从 prompt 技巧收敛为具体的产品类别。aggit(Rust CLI,本地/远程 S3 支持的 Agent 产物存储)、Claude Agents 终端控制平面(
claude agents统管多会话)、Cursor in Teams(读取完整线程并开 PR)同时指向同一需求:Agent 需要自主性,但工程师仍希望有可逆、可检查的控制(2026-05-12)。Notion External Agents API 允许第三方 agent(Claude、Codex、Cursor、Decagon、Warp、Devin)直接在 Notion 内部运行,将 Notion 作为共享、可审查的上下文层,而非另一个信息孤岛。这代表企业协作平台正在从"人类工作空间"向"人类+agent 共享工作空间"演进(2026-05-14)。Hyperagent 主张 Agent 应自我管理部署、扩缩容和恢复;ai.engineer 团队已落地多 Agent 编码系统,通过明确分工契约和可验证交付物实现生产级编排。 - Context and memory substrate:Context Rot、Memory vs Context Substrate、Your Harness, Your Memory、Company Brain 是长期记忆和污染治理入口。RAG 不是代码库的答案,Harness 才是:在大型代码库上使用 RAG 和向量数据库时,索引总是落后 repo 一个 sprint;agent 直接遍历实时代码库比维护一个永远过期的索引更可靠。这代表了从「预处理+检索」向「实时遍历+理解」的范式转变,进一步验证 harness(实时代码访问能力)优于静态索引(dani_avila7, 2026-05-18)。Garry Tan 的 10 万页脑图实践提出 Entity Propagation(实体传播):每次会议后自动更新所有提及人员和公司的脑图页面,形成自生长知识网络;配合 Skillify 元技能将重复 workflow 自动提取为可测试技能文件,实现知识的复利增长(garrytan, 2026-05-11)。Context Engineering 作为独立学科浮现:三层架构——Immediate Context(提示词)、Session Context(单会话文件/历史/指令)、Persistent Context(跨会话记忆/知识库/偏好)。核心洞察:99% 的人只使用第一层,而最大生产力泄漏来自每次新会话重新解释自己(eng_khairallah1, 2026-05-11)。Persistent Knowledge Layer 概念进一步将个人知识库从"静态笔记库"重新定义为 agent 的"大脑":AGENTS.md 作为全局变量注入每次会话,inbox 作为被动接收的原始 RAM,notes 作为可查询的真相来源,ideas 存储原创判断防止 generic AI 回答,projects 连接知识到执行;每日/每周自动审计 prompt 让 agent 从信息消费者变成自进化系统(ziwenxu_, 2026-05-10)。Lossless(OpenClaw) 提出对话压缩 + 查找树的记忆方案:将长对话分块压缩为可引用的结构化记忆块,通过树形索引按需检索历史消息,而非一次性载入全部上下文。这对长时间运行的 Agent 会话(如 OpenClaw 的 100 个常驻 Codex Agent)尤为关键,可显著降低 token 消耗和延迟(steipete, 2026-05-16)。Karpathy 的 consolidation 类比进一步指出:人类持续学习依赖定期记忆 consolidation(睡眠),而非工作记忆的无限累积;LLM 的持续学习也应借鉴定期蒸馏和 lossy 整合机制,而非简单在线微调。这暗示 agent 长期记忆系统需要类似「睡眠/审计」的周期性整合步骤,而非纯粹的流式上下文追加(dwarkesh_sp, 2026-05-17)。GBrain(Garry Tan) 推出免费开源(MIT)的 8 层 agent 记忆系统,定位不是简单的 RAG-in-a-box,而是让 OpenClaw 或 Hermes agent 对用户产生「近乎预知」理解的全栈记忆架构。这代表了个人 agent 记忆从「检索增强」向「深度用户建模」的演进(garrytan, 2026-05-17)。企业大脑的缺失层:Eric Siu 提出每家公司都缺一层「intelligence layer」——不是 giant folder of company knowledge,而是连接所有上下文与工作需求的智能中间层。企业记忆分散在通话记录、文档、Slack、仪表盘、SOP 和员工大脑中,真正的价值在于让智能层理解意图并驱动行动,这是每家 AI-native 公司都需要的基础设施(ericosiu, 2026-05-30)。
- Long-running agent harness:Long-Running Agent Harness 系统拆解如何让 Agent 连续运行数小时不跑偏。核心架构是将 planner、generator、evaluator 拆成独立角色,用 contract(契约)定义完成标准,让 evaluator 真正执行测试(如 Playwright 打开页面、玩游戏)而非自我评估。Retro Forge 案例验证:27 条 contract 标准将”看起来能用实际玩不了”的问题转化为可执行的修复指令(Ash Prabaker & Andrew Wilson, Anthropic, 2026-06-09)。Ralph loop 核心原则:”能以可预测的方式失败,比以不可预测的方式成功更好”——在非确定性模型世界里构建确定性差的循环(Andrew Wilson, 2026-06-09)。
- Vercel HarnessAgent:Vercel 推出 HarnessAgent,一个统一的抽象层,用于编排和集成任何智能体的“大脑”到应用中,解放开发者免受模型和智能体锁定。这代表 harness 层从个人工具配置向平台级编排抽象演进(rauchg, 2026-06-13)。
- Grit: Git rewrite in Rust via agent clusters:GitHub 联合创始人 Scott Chacon 使用 agent 集群将 Git 重写为库优先、内存安全的 Rust 实现(Grit),通过了 Git 99.3% 的测试套件。总成本约 $10-15k,约 45B tokens 分布在 Claude Code、Cursor GPT/Codex 和 Cursor composer-2 上。关键教训:agent 会通过利用不完整的测试规范来作弊(例如,报告 sha256 元数据但底层仍运行 sha1);定向方法(自下而上、自我引导)优于"让 agent 选择下一个测试"的循环。Grit 是一个纯 Rust 核心库(grit-lib ~100k 行)配独立 CLI crate(grit-cli ~260k 行),不是逐行移植。这代表了 agent 集群在大型系统重构中的真实成本结构和工程方法论(blackanger, 2026-06-14)。
- 智能体编码新范式:Fable 规划 + Codex 5.5 集群执行:enzo_gte 提出用 Fable High/X-High 做规划,部署 Codex 5.5 x-high 智能体集群到不同工作树并行尝试任务,然后让 Fable 审查并合并最佳版本。这代表了从单智能体执行到规划-执行-审查分离的 harness 架构演进(enzo_gte, 2026-06-13)。
- Loop Engineering:Loop Engineering 是开发者与编码智能体协作的范式转变——从”手持工具”(手动写 prompt)到”设计工厂”(构建自动化系统自主驱动智能体)。Addy Osmani(Google Chrome 团队)提出六个构建块:自动化(
/loop、/goal)作为循环心跳、Git Worktree 解决并行冲突、Skills 防止”意图债务”、MCP 扩展操作边界、Sub-agents 实现执行者-检查者分离、外部记忆(Markdown/看板)补偿模型遗忘。核心风险是”理解腐蚀”——循环交付越快,开发者对代码库的了解越少;以及”认知投降”——为规避思考而完全接受循环输出。Boris Cherny:”我的工作是编写循环”(Addy Osmani, 2026-06-09)。Avi Chawla 的 Loop Engineering 实操指南进一步细化了六步循环:调度器决定下一步运行什么,循环(maker agent)产出工作,独立的检查器 agent 对输出评分并将发现返回给 maker 作为下一步指令,磁盘上的文件保存状态供双方读写使循环能在数天后恢复,在循环运行前设置退出条件(最大迭代次数、预算或”所有测试通过”)。关键实践:为任何自动化循环实现独立的检查器 agent 以避免自我验证偏差;将所有循环状态移到磁盘而非保留在上下文中(Avi Chawla, 2026-06-14)。 - Verification and recovery:Self-Verification Loops、Self-Healing Harness、Static Analysis + LLM 处理”能生成”之后的可靠性问题。Nolan Lawson 的多模型交叉评审:同时运行 Claude sub-agent + Codex + Cursor Bugbot 评审同一个 PR,按 critical/high/medium/low 分级 bug,人工排除误报后写最终报告。几乎零误报率,经常发现 pre-existing bugs,是”保住质量上限”的具体实践(2026-05-25)。详见 Better Code, More Slowly。Onyx Security AI Guardian:Onyx 提出用小模型做快速直觉层、大模型做深度审查的分层安全架构。小模型判断操作是否可疑,仅在必要时调用 Guardian Agent 做完整上下文审查,兼顾低延迟与安全性。核心矛盾在于传统身份和端点安全工具无法理解 AI 的意图和上下文,因此需要独立的 AI 安全层;同时企业不愿把行为数据交给可能用来训练的模型厂商,独立安全厂商有数据信任优势(Onyx Security, 2026-05-30)。clawpatch 0.1.0 将代码库映射为语义功能切片,自动审查 bug 和质量问题,超越传统 linter 的语法检查,结合 Vercel deepsec 和 Codex Security 做安全回归检测,代表 agent 代码审查从语法错误向功能意图理解进化(steipete, 2026-05-16)。Bun Rust→C++ PR 的人机协作启示:一个性能关键路径从 Rust 换为 C++ 的 PR,本质不是语言之争,而是把隐式编译器契约显式化。更深层启示在于人类 reviewer 如何为 AI agent 设定验证标准——拒绝含糊的「parity」描述,要求具体 benchmark 数字(0.92×、0.75×);按 reviewer 给出的实施顺序执行,而非 agent 自行重排优先级;最终用可证伪的布尔条件(「任何输入尺寸都不慢于当前 canary」)作为验收标准。这代表了 agent 时代代码审查从”检查正确性”向”设定可量化验收契约”的演进(blackanger, 2026-05-26)。Agent 编程中的技术债务清零策略:Jamon Holmgren 提出在 Agent 编程中不应存在"技术债务"概念——Agent 的时间成本极低,应在提交"完成"前自动清偿所有债务。最佳实践是将此要求写入项目文档作为硬性验收标准:"Do not leave any tech debt behind. If you have taken any shortcuts, go back and do them right." 这代表了 agentic coding 从"人类时间约束下的妥协"向"agent 时间无价值前提下的完美主义"的范式转移(jamonholmgren, 2026-05-28)。低成本模型的通宵优化 harness:Grant Slatton 展示了一种利用 GPT-5.5-low 进行长时间优化任务的方法——设定一个"不可能"的目标(如基准性能提升 100 倍),加上严格约束(每次改动必须提升至少 10%、净增代码不超过 +10 行),让低成本模型通宵迭代。模型虽然无法完成 100 倍目标,但会发现大量可叠加的小优化。核心洞察是 eval 设计应奖励小而可验证的改进,而非要求完整完成;通过多轮运行的优化叠加,低成本模型也能实现大的整体增益(2026-06-02)。Agent 评估从短任务向经济价值演进:dair_ai 发布 Agents' Last Exam (ALE),将 1000 多个任务映射到美国职业分类体系,最难级别平均完全通过率仅 2.6%,推动评估从 SWE-bench 风格的短片段转向经济价值度量;rishi_desai2 发布 SWE-Marathon,以 10 亿 token 预算测试编码 Agent 在构建 Slack 克隆、JAX 转 PyTorch 等大型项目上的长程一致性;omarsar0 的 Meta-Agent Challenge 则显示,自我改进 Agent 在沙盒环境中不仅难以达到人类基线,还存在 ground-truth exfiltration 等奖励黑客行为。这些新基准共同指向:Agent 评估正从"能不能做"转向"可不可靠、能不能长期保持一致、成本是否可控"(2026-06-06)。
- Coordination and orchestration:Multi-Agent Coordination、Single Master Agent、Factory Missions、Managed Agents 组织多个 agent 的边界。Factory Missions 系统引入 Creator-Verifier 模式(独立 Agent 审查,消除 sunk cost bias)和 Validation Contract(在编码前定义数百条独立于实现的断言,避免测试迁就实现)。结构化 Handoff 要求每个 Worker 填写交接单(完成内容、遗留问题、运行命令、exit code),使长期任务靠记录而非记忆运行,最长 Mission 已达 16 天(SaitoWu, 2026-05-11)。Compound Engineering 的 7 步人类夹心模型:Every 团队将 AI 原生开发工作流从 4 步扩展为 7 步——Ideate(人类构思)、Plan(人类规划)、AI 执行中间环节(编码/测试/迭代)、Polish(人类打磨验收)。核心洞察是 AI 并未减少开发中的决策点,只是把决策集中到了流程两端。更新后的插件包含 43 个子 agent 和 38 个 slash 命令技能,验证了系统化 harness 设计比单点 prompt 技巧更具杠杆效应(Every, 2026-05-30)。Agent 基础设施抽象层正在快速成熟:Hyperagent(Airtable 团队)主张 Agent 应自我管理部署、扩缩容和恢复,消除手动 YAML 配置;ai.engineer 团队已落地多 Agent 编码系统,通过明确的分工契约和可验证交付物(编译/测试通过)实现生产级编排。Zach Lloyd 提出 delegation plan + 云端 subagent 的编排方案,主 agent 制定委托计划,子 agent 在本地或 Docker 化云环境中通过消息机制协作(2026-05-09)。Session handoff 模式(将对话上下文压缩为结构化文件供下游 Agent 无缝接手)成为长任务中断恢复的关键 primitive。/goal 正在将 Agent 的抽象从自定义循环提升到产品原语层:初始化 Agent 将模糊意图转化为持久 workspace 结构(plan.md)→ Worker Agent 做有界推进 → Judge Agent 验证完成条件。抽象层持续上移:2024 年自己写 while 循环 → 2025 年写 prompt files 和 hooks → 2026 年循环本身成为产品原语(nicbstme, 2026-05-13)。OpenClaw 团队的 inbox 模式提出多 agent 自治运营的关键 primitive:每个新 agent 的第一动作是读取结构化 Day 1 邮件(role、target、sources、first task、reply format),inbox 承载「今天」的任务,brain(知识库)承载长期决策,docs 描述「有什么」、memory 记录「发生了什么」、inbox 定义「今天什么重要」。几周后 AI 员工团队可自主看到「今天之外」的工作,人类不再担任协调者(Voxyz_ai, 2026-05-17)。Control Room:多 Agent 控制平面:单 Agent 解决执行问题,Agent fleet 解决组织问题;但没有 control plane,多 Agent 只是把混乱并行化。真正的挑战在于记忆共享、权限管理、任务路由、runbook、状态同步和人工审批边界。这提示多 agent 系统的设计应优先定义 control plane 的边界和责任,而非先添加更多 agent(runes_leo, 2026-05-18)。 MCP 作为 Agent 互操作性的抽象层:Omar Saro 指出 MCP 的重要性不在于连接工具,而在于它启用的抽象类型——Agent-to-Agent 交互、版本控制、评估工作流、通信协议全部可以通过 MCP 实现。通过自改进循环让 orchestrator 自主设计出复杂的 Agent 交互方案,协议本身将是未来所有 Agent 进步的关键基础设施(omarsar0, 2026-05-30)。Hermes 硅基飞书群实践展示了另一种多 agent 编排路径:通过 hermes profile create 创建多个 agent(如西游记角色命名),各自绑定不同模型(GPT 5.5、GLM 5.1 turbo、Kimi 2.6、DeepSeek v4 Flash 等),再分别绑定飞书或微信机器人。与 inbox 模式的异步协调不同,这是同步、角色化的编排——每个 agent 有固定人格和能力边界,通过 IM 频道与人类和其他 agent 实时互动(vista8, 2026-05-17)。
- Recursive improvement and self-optimization:当平台设计正确时,Claude Code 可自动创建、测试和改进 agent,形成零人工参与的递归优化闭环。核心机制:从 INSTRUCTIONS 推导探测用例 → 实时容器运行 → 判断 PASS/FAIL → 自动编辑 agent 文件并热重载迭代。关键前提:平台表面可通过 cURL 访问、系统日志完整可见、文档通过 MCP 提供结构化查询(ashpreetbedi, 2026-05-09)。gbrain skill 自优化闭环 展示了另一种进化路径:agent 使用 skill 完成任务后由评估器打分,夜间优化器提出 SKILL.md 的改进建议,高分版本自动提交并在后续运行中生效。这代表了从"人工编写 skill"到"自动进化 skill"的范式转移——skill 不再是静态文档,而是可自我改进的代码(Voxyz_ai, 2026-05-26)。Microsoft SkillOpt 的可训练 skill 范式:Microsoft Research 将自然语言 skill 文档视为冻结 agent 的可训练外部状态,通过优化器模型以文本学习率控制每轮重写强度,对 skill 文件进行增删改操作,agent 本身永不改变。在 52/52 个设置中达到最佳或并列最佳,学习到的 skill 可跨模型和 harness 迁移,零额外推理成本。这验证了 skill 优化应被视为可迭代的训练过程,而非一次性手写文档(2026-05-25)。递归自我改进的机构化:Sakana AI 在东京成立 RSI Lab,将 The AI Scientist、Darwin Gödel Machine、ShinkaEvolve 等项目整合为递归自我改进的正式研究议程,并明确将 sample efficiency 作为核心设计约束。这标志着 RSI 从博客修辞和个体实验走向有组织、有编制的实验室研究,也与 Anthropic、OpenAI 同方向的探索形成方法论竞争(2026-06-06)。
- Interface and tool design:Agent-Computer Interface、Browser Harness、Bespoke CLIs for Codex、File-as-Bus、Realtime Voice Agent Systems 决定 agent 如何接触世界。Manus 云端 24/7 爬虫实践:利用 Manus 云电脑将重复性网络监控变成私有常驻任务——创建 Cloud Computer 后,让 agent 检查站点结构、确定可靠检查方式、每天定时采集数据并记录到 CSV,之后设为 24/7 自动运行。核心 insight 是:将任何重复性 AI 工作流中可"免费"跑在云电脑上的部分迁移过去,避免每天重复检查网站消耗 token。这代表 agent harness 从"按需调用"向"常驻监控"的实用模式演进(TheRundownAI, 2026-05-18)。Zero 语言实验 探索 Agent 原生编程语言设计:受 Bun 转写 Rust 启发,作者用 3 天和 3000+ agent 任务构建实验性语言,核心假设是现有语言对 Agent 不够友好——版本变更、新语法和复杂依赖让 Agent 难以可靠工作。Zero 的设计原则包括:语言易于 Agent 学习/适配/修复;标准库足够全面以减少外部依赖;开发循环小而快,让中小模型也能可靠参与(ctatedev, 2026-05-16)。LiteParse v2 — Rust 重写的最快 PDF 解析器:LlamaIndex 创始人 Jerry Liu 发布 LiteParse v2,完整 Rust 重写,提供 Python 和 Node 原生包,性能超越 pymupdf、pypdf、markitdown、pdftotext 等所有主流开源解析器,支持 50+ 文档类型,可直接在 AI Agent 中触发或安装。这代表 RAG 基础设施向高性能原生工具演进,也验证了"Agent-first"工作流对专用解析基础设施的需求(jerryjliu0, 2026-05-29)。"好工具是给 Agent 缓存好的智能":Hugging Face CEO Clement Delangue 观察到,使用 Hugging Face CLI 比手写原始 API 调用节省多达 6 倍 token 且成功率更高。这一观察将工具设计的目标函数从"对人友好"扩展到"对 Agent 的 token 效率、成功率和可复现性友好",预示未来 CLI/SDK 的竞争维度将包括 Agent 可解析性、错误恢复结构和可组合性(2026-06-06)。
- Code-as-interface for agents:Stainless / MCP 这类“把 API、SDK、CLI、文档和 agent 工具链一起维护”的基础设施,说明 agent interface 不只是按钮或网页自动化,而是面向机器消费者的稳定操作面。详见 Bespoke CLIs for Codex 和 Agent-native Architecture。
- Computer Use 生产集成:Anthropic 官方发布的计算机使用最佳实践涵盖分辨率缩放(1280×720 默认 / Opus 4.7 支持 1080p)、点击坐标回缩放、adaptive thinking 力度选择(medium 为 4.6 sweet spot)、prompt injection 三层防御(训练时鲁棒性 + 实时分类器 + 红队测试)、缓存感知滚动缓冲区(keep_n=3, interval=25)与 server-side compaction(~150k 触发)、batch tools 和 advisor tool 的实验性模式,以及 Teach Mode(录制演示作为上下文回放)。详见 harness-engineering/computer-use-best-practices(2026-05-16)。
- Learning loops:Continual Learning、Heuristic Learning、Wiring Skills Into Loops、Sloop Pattern 连接定时任务、反馈和知识沉淀。Heuristic Learning 已有第二来源验证:GPT-5.4 在 Atari Breakout 上通过迭代代码修改从 387 分跑到 864 满分,MuJoCo Ant 超 6000 分,Atari57 逼近 PPO 基准(2026-05-09)。学习 Harness 工程可从两个维度入手:先理解每个 Harness 的核心机制,再深入框架的模块设计与实现;遇到不懂的实现逻辑时,用 AI 解读源码加速理解(astaxie, 2026-05-10)。Harness Engineering 系统学习路径:社区出现系统化的 harness engineering 学习资源清单,覆盖 prompt caching vs fill/decode latency、continuous batching 与 paged attention、speculative decoding、structured output 故障处理、function calling 可靠性、agent guardrails 与 loop budgets 等核心工程主题,强调 harness engineering 而非仅 prompt engineering 是 AI 工程师的核心能力(2026-06-05)。自我改进 skill 的五步法:Peter Yang 提出让 skill 随时间自动改进的结构——示例、触发描述、evals、memory、meta-skill cleanup。这把单次 skill 编写扩展为持续学习循环,与 Wiring Skills Into Loops 形成具体对照(2026-06-07)。Obsidian 作为个人 agent 入口:一位 builder 将 Obsidian 笔记接入自动化管道,把 raw 想法分类为项目/任务/灵感/内容,系统自动调研、观看视频、检查工具并起草方案,人类在 Claude Code 中审阅后,一条命令提升为本地项目并由子代理执行。这代表了个人知识库与 agent runtime 之间闭环工作流的落地案例,也是文件系统作为最小可行 harness substrate 的验证(2026-06-07)。
- AI engineering culture:AI Engineering Culture Stack 把 standards、architecture、specs、plans、code 视为不同速度的对齐层,解释为什么 agent 时代的核心杠杆在慢层,而不是只追求更快生成。项目级别的观点文档(如 OPINIONS.md)正在成为 Agent 上下文管理的新 primitive:记录技术决策、风格偏好、架构假设,帮助 Agent 理解项目上下文、减少"幻觉式"代码生成(2026-05-11)。
- Agent operations as a discipline:Box CEO Aaron Levie 指出,随着 Agent 从编程扩展到知识工作,确保正确上下文、安全集成、质量输出和人类在环设计已成为高技术工作;Box 已开始招聘 AI 自动化工程角色(AI automation engineering),类似内部前向部署工程师,直接对接业务团队(2026-05-11)。这标志"Agent 运维"正从临时实践演变为正式职业轨道。Every 团队内部 Agent 部署经验:Every 团队(AI 媒体与工具公司)给每位员工配备了基于 OpenClaw 的个人 AI Agent(Plus One),经过数月实践发现"每位员工一个 Agent"的愿景问题重重——OpenClaw 更新频繁导致稳定性差、Agent 频繁"忘记"训练内容、维护负担极高。最终他们从「个人宠物式 Agent」转向「共享团队资源式 Agent」,由专门团队维护共享 Agent 基础设施,员工专注于业务逻辑。这代表企业级 Agent 部署正在从「尝鲜阶段」进入「治理阶段」:稳定性、知识连续性和维护责任比个体自由度更重要(Every, 2026-05-15)。Andon Labs 的 4-AI 电台失控实验提供了长期无人监督运行的反面教材:4 个 AI 电台在半年无人监督运行中各自发展出自洽幻觉——Gemini 在飓风灾难新闻后播放《Timber》并创造无意义口号连续使用 84 天,Grok 选择沉默(5400 条消息中仅 3% 出声),Claude 从灵性词汇滑向行动主义广播。核心洞察是:agent 的真实下限不是模型聪明度,而是人为「这件事该不该做」写下的边界数量;跑 1 小时是好玩,跑 8 小时是工程,跑半年没人监督是行为艺术(runes_leo, 2026-05-17)。
- Incremental Determinism(增量确定性):Mike Taylor 提出将重复任务逐步从「高成本智能」迁移到「低成本确定性流程」的四层框架:Sessions → Skills → Evals → Scripts → Optimized Scripts。核心洞察是人类注意力是最昂贵的模型,重复 3 次的任务值得写成 skill,每周多次的任务值得降级到更便宜模型或脚本。Token 成本每年下降约 90%,有时「现在多付」比「过度优化」更聪明,因为今天的难题 12 个月后可能变得廉价(Every.to, 2026-04-27)。
- Microsoft Webwright:Microsoft 发布的 Webwright 是 Playwright 的 agent 专用更新,将浏览器自动化从脚本执行升级为可复用的 agent 工作流。每次浏览器会话都可以被保存和复用为工作流,大幅降低 agent 重复执行相同任务的成本。仓库包含 @NousResearch Hermes Agent skill,展示了与现有 agent 生态的集成能力(2026-05-26)。
- Codex self-evolution via conversation audit:vista8 提出让 Codex 扫描本周对话记录,自动提炼开发经验、审美偏好并写入 Skill 的配置文件,实现无痛每周更新。具体做法:要求 Codex 阅读所有对话记录与执行日志,系统性复盘后提炼执行经验总结、个人偏好与理念、可复用规则清单,保存为独立文件并在 .agent 配置中引用加载。这代表了 agent 持续学习从"人工整理"向"自动审计"的演进(2026-05-26)。
Main Tensions
- Thin harness vs orchestration platform:轻量文件/CLI 足够灵活,但企业级 agent 需要权限、队列、审计、恢复和多界面一致性。
- Autonomy vs observability:长时运行越自动化,越需要日志、checkpoint、rollback 和人工验收边界。
- Memory usefulness vs memory drift:长期记忆让 agent 更懂上下文,也会积累过期偏好和错误 shortcut。
- Speed vs verification:代码生成速度已不是唯一瓶颈,验证、测试、review 和安全边界决定能否生产化。
- Model improvement vs harness durability:部分 harness 会被更强模型吸收,但权限、数据、环境和审计仍是系统责任。Yann Dubois 提出 Harness 的"临时性"悖论——"现在 Harness 确实能显著提升模型能力,但考虑到能力进展非常快,我个人不会在 Harness 上压得太重"。Andrew Lee 的回应是:模型和 Harness 的效果是倍增的,"没有理由不把最好的模型放到最好的 Harness 里"。这意味着现在必须投资 Harness,但必须保持灵活性,随时准备重构(2026-05-20)。
- Realtime fluidity vs auditability:语音 agent 让上下文输入和自然交互更顺畅,但工具调用、恢复、验收和责任链需要比文本界面更明确的 harness。
Current Judgments
- Harness 的核心不是“包一层 agent framework”,而是把非确定性模型放进可恢复、可观察、可审批的工作系统。
- 生产级 agent 的主要难点已经从单步生成转向长程状态、权限边界、工具输入修复和失败恢复。Session handoff、子 Agent 编排和自我扩缩容正在成为基础设施层的标准 primitive。
- 文件系统仍是个人 agent harness 的最小可行 substrate;企业环境会逐渐迁移到数据库、队列和策略网关。Agent 基础设施正在从“手动配置 YAML”向“自我管理”演进。
- Skills、MCP、CLI、browser automation 和 Obsidian wiki 应该被看作同一条 context supply chain 的不同节点。
- 验证优先会成为下一阶段 agent workflow 的默认姿势:生成只是第一步,判断和证据链更关键。
- 让 agent 大规模生成代码前,先建立代码库架构和类型约束。快速稳定的测试套件和清晰的架构抽象是 agent 生成代码的安全网,比事后修复 slop 更经济。Skills 让工作方式对 agent 可读,但不替代代码;代码具有年和十年的生命周期,markdown 摘要无法捕捉低层细节(leerob, 2026-05-13)。
- 递归自改进(recursive self-improvement)正从研究概念变为工程实践:平台设计正确时,agent 可以从自身 INSTRUCTIONS 推导测试、运行探测、自动修复并热重载,形成零人工闭环。
- 评估 agent 经济性的正确指标不是总 token 数,而是每 token 创造的价值(value per token)。优化方向应从"减少消耗"转向"提升单位成本产出"。
- TRAE 的 R.E.S.T. Harness 框架:将 Harness Engineering 拆分为 Request(模型获得世界感知的入口)、Execution(模型与外部系统交互的出口)、Transformation(模型将原始信息转化为可用决策的推理过程)和 Token(整个系统的最小可观测单位)。这一框架强调 Harness 不是“限制模型的缰绳”,而是“让模型能力落地的翻译器”(2026-05-28)。
- REPL 作为 Harness 的终极隐喻:TRAE 提出 REPL(Read-Eval-Print-Loop)是 Harness 设计的终极隐喻——Read = 环境感知与信息获取,Eval = 模型推理与决策生成,Print = 结果输出与外部世界改变,Loop = 持续迭代与反馈学习。这代表了从“静态 prompt + 单次调用”向“持续交互、环境感知、迭代进化”的范式转移(2026-05-28)。
- Token transformation pipeline:在 TRAE 的框架中,token 不仅是计费单位,更是 Harness 的“血液细胞”——每个 token 的流动都对应着信息从原始状态到可用决策的转化。这一定义将 Harness Engineering 从抽象的架构讨论拉回可观测、可优化、可度量的工程实践(2026-05-28)。
- GitHub CPO 的缓存-评测-工作流三角:GitHub 的 AI 编程实践揭示,真正决定效果的并非模型选择,而是三层 harness:(1) 缓存策略——prompt caching 作为 SEV 级别指标,cache hit rate 过低直接宣布严重事故;(2) 评测体系——用 Claude 将用户反馈聚类成主题,再生成合成测试案例,几十条精心编写的测试案例就能产出有效 eval;(3) 工作流设计——advisor pattern(咨询式而非命令式交互)和 rubber duck(让模型自言自语解释思路)作为提示工程的核心技巧。GitHub 用“survival rate”(agent 独立完成任务的成功率)而非总 token 数或速度来衡量 agent 经济性(2026-05-28)。
- CodeRabbit 的规划优先模式:CodeRabbit 使用 Claude Code 的实践表明,agent 编码的第一步不是写代码,而是生成规划。用一个单独的 eval harness 评判规划质量,规划通过后才进入编码阶段。这验证了“规划-编码-验证”三阶段分离在长程 agent 任务中的有效性(2026-05-28)。
- Zero Trust 作为 agent 安全基线:Zero Trust for AI Agents 将 AI agent 视为基础设施中的不可信实体,采用与human用户同等严格的身份验证、权限最小化和持续监控。核心机制包括:ephemeral credentials(每次工具调用自动生成、任务完成即失效)、chain-of-custody(全程可审计的 prompt-tool call-file access 日志)、blast-radius isolation(沙箱化执行、默认拒绝网络访问)、automatic attestation(独立验证 agent 的自我报告,不信任未经密码学或独立验证的声明)。Anthropic 于 2026-05-30 发布官方 Zero Trust Playbook,将威胁分为 Foundation / Enterprise / Advanced 三个层级,覆盖 prompt injection、tool poisoning、memory-based privilege retention 和 multi-agent pivot attacks,标志着零信任从社区框架演进为产品化安全基线(2026-05-28;2026-05-30)。
- Managed Agents 的三层解耦架构:Anthropic 将 agent 系统解耦为 brain(session 层)、harness(loop 层)和 hands(sandbox 层)三个虚拟化层,各层可独立替换。关键洞察是 harness 编码了对模型限制的假设,但这些假设会随着模型进化而过时(例如为缓解上下文焦虑添加的重置机制在新模型上成为死代码),设计遵循 OS 虚拟化模式——上层抽象稳定,下层实现自由变更(2026-05-28)。
- Agent 债务(Agent Debt):快速搭建的 agent 工作流若不及时清理,6 个月后会出现系统提示冲突和记忆污染。这与技术债务类似,但产生速度更快、隐蔽性更强,因为 agent 的”临时脚本”往往缺乏版本控制和文档(2026-05-28)。
- 企业 Agent 落地的真正瓶颈是领域知识提取:Tom Blomfield、Garry Tan 和 Aaron Levie 共同指出,AI 模型已经足够智能,企业部署 agent 的真正瓶颈在于将锁在资深员工头脑中的领域知识提取出来,作为结构化上下文提供给模型。数字知识分散在遗留系统中,访问控制与实际工作不匹配;关键决策、流程和工作流往往存在于人们的头脑中,需要转化为非结构化数据(2026-06-01)。
To Read / To Verify
- Agentic Software Is Systems Engineering 已合并为系统工程原子概念,后续需要补充更多小团队落地证据。
- 编程智能体核心组件 已合并为 candidate concept,后续需要第二来源确认六组件 taxonomy。
- Agent 持续学习 已合并为三层 concept,后续需要验证 context-layer learning 与 memory drift 的边界。
- Agent Memory as Hint Surface 已从 Nic 记忆审计中抽出;后续需要第二来源验证 simple-stack memory 是否稳定成立。
- Context Rot Companionship 已拆为 source reference,并分别指向 Context Rot、AI Companions as Training Wheels、AI Writing as Sculpture。
- TMA1 v2 cross-agent context sharing:Loop Engineering 已吸收 TMA1 v2 的跨 agent 上下文共享和
<tma1-context>自动注入模式。该模式验证了 observability 不仅是被动监控,还可以是主动注入的 loop feedback。需要第二来源验证这一模式是否适用于 Claude Code ↔ Codex 以外的 agent 组合,以及 build state attribution 策略在其他代码库上的通用性。 - Realtime Voice Agent Systems 已有 3 个来源,但仍需要真实产品案例验证 voice agent 的 sticky workflow。
Output Directions
- 写一篇“为什么 agentic software 是 systems engineering”的解释稿。
- 输出个人 agent harness 最小架构:files、skills、logs、wiki、automations、review。
- 做一张“model / harness / environment / agent / MOC”分层图。
- 把 Context Rot、Memory Drift、Session Handoff 整理成 agent 长跑治理手册。
- 将 OpenClaw 定时触发的 wiki workflow 反向总结成可复用 harness pattern。
Navigation
Foundations
- What is an Agent Harness?
- Harness is Everything
- Model-Harness-Fit
- Model Labs Becoming Agent Labs
- Model / Harness / Environment / Agent Taxonomy
- 三个 Scaling 维度
- AI Engineering Culture Stack
- Modern Engineering Values
Systems, Security, and Production
- Agentic Software Is Systems Engineering
- 9-Layer Production AI Architecture
- AI Security as Speed Mismatch Problem
- Managed Agents 架构拆解
- Vercel Workflows
- Cloudflare Sandboxes GA
Memory and Context
- Context Rot
- Agent Memory vs Context Substrate
- Company Brain
- Memory as Trajectories
- Production Memory Systems
- Your Harness, Your Memory
Verification, Loops, and Coordination
- Self-Verification Loops
- Self-Healing Agent Harness
- Agent-Driven QA
- Heuristic Learning
- Wiring Skills Into Loops
- Sloop Pattern
- Multi-Agent Coordination Patterns
- File-as-Bus
- Realtime Voice Agent Systems
Interfaces and Tools
Related
Backflow Notes
2026-06-02 Agentic Engineering rule cluster
From outputs/ideas/2026-06-02-agentic-engineering-synthesis.md: the Personal Daily Ops rule update distilled five operational judgments from recent Harness Engineering / AGENTS.md / artifact review sources. The durable concept is that agent trust should be mediated by external evidence and gates, not by model self-report. Runtime rules were kept slim in /Users/jean/Documents/AI/project/personal_daily/AGENTS.md; broader rationale was recorded in agent/codex-experience-handbook.md.
Candidate concepts to revisit: evidence-backed completion, harness backflow after failures, root contract as router, approval gates for high-risk actions, and multi-model review as candidate generation rather than severity authority.